## [1] 50000 30
## [1] "ListingId" "借款金额" "借款期限"
## [4] "借款利率" "借款成功日期" "初始评级"
## [7] "借款类型" "是否首标" "年龄"
## [10] "性别" "手机认证" "户口认证"
## [13] "视频认证" "学历认证" "征信认证"
## [16] "淘宝认证" "历史成功借款次数" "历史成功借款金额"
## [19] "总待还本金" "历史正常还款期数" "历史逾期还款期数"
## [22] "期数" "还款状态" "应还本金"
## [25] "应还利息" "剩余本金" "剩余利息"
## [28] "到期日期" "还款日期" "recorddate"
5万条数据中,借款高于10000的用户1554名,大部分用户借款金额在在这之下,图中出现一些规律,如逢百位为5的都有所下降。
借款金额主要集中在中间的区域,图形接近正态分布
## paipai$性别: 男
## [1] 158014334
## --------------------------------------------------------
## paipai$性别: 女
## [1] 67577276
女性的借款数量低于男性,但分布上跟男性比较接近
## paipai$性别: 男
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 100 2100 3466 4628 5274 500000
## --------------------------------------------------------
## paipai$性别: 女
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 100 2029 3500 4262 5500 400000
前两图来看,虽然男性比女性的借款额的频率高,但从箱型图来看,两者的中位数和25%以及75%分位数都很接近
借款人年龄在22~31岁之间居多,图形呈左偏
借款期限以6和12月份居多,男女都呈现出比较一致的情况
借款利率为20-22(单位不知)的情况较为常见
## Var1 Freq
## 1 APP闪电 17210
## 2 电商 113
## 3 普通 18257
## 4 其他 14420
电商形式的借款类型较少,对借款类型的情况做个了解,可以针对性的投放广告,应该对“其他”的渠道做更详细的了解
1.采用python对拍拍贷的LC和LP文件进行了拼接,并且随机抽取了5万条的数据,特征有30条
2.主要选择的特征有:
“借款金额”,“年龄”,借款利率“,“借款类型”,“历史成功借款金额”
3.以下特征有助于我对单变量的分析:
”性别“,‘借款日期’
4.创建了一个新的变量month,用来记录2015年1月开始的贷款成功月份数(后文还将创建‘总借款金额’,‘认证次数’等新特征)
5.借款金额分布的范围很广,除了对范围做个截断处理外,还用到了对数伸缩的方法对借款金额做了个缩小。前者原因是可以让我对分布密集的区域做更详细的了解,后者的原因是,在不失去整体数据的情况下,也能很直观的观察总体的分布。
借款金额随月份逐渐增加
观察到图中具有较强关系的特征较少
从上述两图可看到,年龄跟本次借款金额以及整体借款金额上的关系并不容易看出来,下一步通过平均值观察其中的情况
从图上看出,年龄在30岁之间,平均借款金额随年龄有个上升的趋势。后面有个波动的过程,下面通过用分位数具体看下
50岁后的借款用户比较少,但上下浮动较为明显
paipai$cut_age <- cut(paipai$年龄,c(16,20,25,30,35,40,45,50,56)) #将年龄分段
qplot(data=paipai,
x=cut_age,y=借款利率,main='不同年龄层的借款利息差异',
geom='boxplot')+
scale_y_continuous(breaks=seq(10,26,3))
年龄越接近中间位置(35岁),贷款利率低于正常范围水平(1.5倍IQR)的情况也越多
##
## Pearson's product-moment correlation
##
## data: df_n$借款金额 and df_n$历史成功借款金额
## t = 98.169, df = 35532, p-value < 2.2e-16
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## 0.4536859 0.4700445
## sample estimates:
## cor
## 0.4619045
历史成功借款金额跟当前这次的借款额度之间为中等程度的正相关性关系
从认证次数跟初始评级的关系来看,0和1次认证D和C的评级占比最大,2到4次认证的用户,C的占比较之前增大。
1.探讨你在这部分探究中观察到的一些关系。这些感兴趣的特性与数据集内其他特性有什么区别?
这部分探索了月份、年龄、借款金额、历史借款额、认证次数和评级等特征,除了时间跟借款总额特征的关系很强外,其他的相关关系较弱
2.你是否观察到主要特性与其他特性之间的有趣关系?
观察到,不同年龄段的用户对借款金额的需求也不同,历史借款金额对本次借款金额的额度存在中等程度的相关性
3.你发现最强的关系是什么?
时间跟借款总额的关系是最强的,随着时间的推移,更多的用户在这个平台借款.
这部分看不出存在特别的关系
男性有比较集中的借款额区域,女性借款金额分布更广泛
## paipai$是否首标: 否
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 100 2000 3000 3997 4455 500000
## --------------------------------------------------------
## paipai$是否首标: 是
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 100 3750 5000 5777 7000 500000
首标的用户借款金额比较集中,23岁之后,多数集中在借款金额为1e4附近
前四种还款状态中,男性的比例都较高
##
## 男 女
## 0.06888674 0.06161317
逾期用户中,男性逾期的比例高于女性
1.探讨你在这部分探究中观察到的一些关系。通过观察感兴趣的特性,是否存在相互促进的特性?
多变量的观察上,除了首标用户这个特征存在特定的表现外,其他特征的对比还未找到特别明显的特性
2.这些特性之间是否存在有趣或惊人的联系呢?
1.首标用户表现出借款金额更高的情况;2.男性借款额度的区域更为集中。
从图上可以看出来,用户更容易借整千数值的金额,百位逢5,男女性别借款的人数都会变低。 此外,站在平台运营方的角度考虑,分析不同性别的借款金额分布是有意义的,比如需要提高用户借款额度,就可以通过在借款频数多的附近(略高额度)做一些活动,用户在考虑4000时的优惠低,但5000优惠或奖励多,就可能改成借5000额度。区分男女,也可以做相应的活动策略
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 100 2000 3270 4279 5097 500000
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 100 2863 4200 5530 6000 500000
借款用户年龄主要集中在21岁到35岁之间,对于运营商来说,在已经了解到35岁以上的用户的平均借款额度是高于35岁以下用户的,那么就需要去了解为什么这区域的人数较多,而其他区域较少,是否是产品的推广不到位导致年级大的用户没有接触到,是否要投入更多推广成本在这方面
从图中我们可以看到,不同的年龄层,首标的用户,借款金额更多的集中在一些规律的区域,均值线也高于非首标用户。可见,提高新用户的比例有助于提高借款额度.